多分类任务评价指标
指标 | 计算方式 | 特点说明 |
---|---|---|
微平均精确率 | 所有类别的TP总和 / (所有类别TP总和 + FP总和) | 更关注高频标签表现,受数据分布影响大 |
微平均召回率 | 所有类别的TP总和 / (所有类别TP总和 + FN总和) | 反映模型对真实正例的整体覆盖能力 |
微平均F1值 | 2*(微平均精确率*微平均召回率)/(微平均精确率+微平均召回率) | 综合评估模型在极端多标签场景下的平衡性能 |
与传统宏平均对比
平均方式 | 计算逻辑 | 适用场景 | 本文选择原因 |
---|---|---|---|
宏平均 | 各类别指标独立计算后取算术平均 | 标签重要性均等 | 不适用(低频标签过多) |
微平均 | 汇总所有类别统计量后计算全局指标 | 标签出现频次差异大 | 更关注高频标签实际影响 |